Das MolmoAct-Modell von Ai2 „denkt in 3D“, um Nvidia und Google in der Roboter-KI herauszufordern

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Physische KI, bei der Robotik und Basismodelle zusammenkommen, entwickelt sich schnell zu einem wachsenden Bereich, wobei Unternehmen wie Nvidia , Google und Meta Forschungsergebnisse veröffentlichen und mit der Verschmelzung großer Sprachmodelle (LLMs) mit Robotern experimentieren.
Neue Forschungsergebnisse des Allen Institute for AI (Ai2) wollen Nvidia und Google im Bereich der physischen KI herausfordern. Mit der Veröffentlichung von MolmoAct 7B, einem neuen Open-Source-Modell, das Robotern räumliches Denken ermöglicht, will das Institut Nvidia und Google im Bereich der physischen KI herausfordern. MolmoAct, basierend auf Ai2s Open-Source-Software Molmo, „denkt“ in drei Dimensionen. Es veröffentlicht auch seine Trainingsdaten. Ai2 verfügt über eine Apache 2.0-Lizenz für das Modell, während die Datensätze unter CC BY-4.0 lizenziert sind.
Ai2 klassifiziert MolmoAct als Action Reasoning Model, in dem Basismodelle über Aktionen innerhalb eines physischen 3D-Raums schlussfolgern.
Das bedeutet, dass MolmoAct seine Denkfähigkeiten nutzen kann, um die physikalische Welt zu verstehen, zu planen, wie sie den Raum einnimmt, und dann die entsprechenden Maßnahmen ergreifen kann.
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
„MolmoAct verfügt im Gegensatz zu herkömmlichen Vision-Language-Action (VLA)-Modellen über die Fähigkeit, im 3D-Raum zu denken“, erklärte Ai2 in einer E-Mail an VentureBeat. „Die meisten Robotikmodelle sind VLAs, die nicht im Raum denken oder schlussfolgern. MolmoAct hingegen verfügt über diese Fähigkeit und ist dadurch aus architektonischer Sicht leistungsfähiger und generalisierbarer.“
Da Roboter in der physischen Welt existieren, behauptet Ai2, dass MolmoAct Robotern hilft, ihre Umgebung wahrzunehmen und bessere Entscheidungen darüber zu treffen, wie sie mit ihr interagieren.
„MolmoAct könnte überall dort eingesetzt werden, wo eine Maschine ihre physische Umgebung erfassen muss“, so das Unternehmen. „Wir denken vor allem an den häuslichen Bereich, da dort die größte Herausforderung für die Robotik liegt, da die Dinge dort unregelmäßig sind und sich ständig ändern. MolmoAct hingegen ist überall einsetzbar.“
MolmoAct kann die physische Welt verstehen, indem es „räumlich fundierte Wahrnehmungstoken“ ausgibt. Dabei handelt es sich um Token, die vortrainiert und mithilfe eines vektorquantisierten Variational Autoencoders oder eines Modells extrahiert werden, das Dateneingaben wie Videos in Token umwandelt. Das Unternehmen erklärte, dass sich diese Token von denen der VLAs dadurch unterscheiden, dass es sich nicht um Texteingaben handelt.
Diese ermöglichen MolmoAct ein räumliches Verständnis und die Kodierung geometrischer Strukturen. Mit diesen schätzt das Modell die Entfernung zwischen Objekten.
Sobald die geschätzte Entfernung bekannt ist, prognostiziert MolmoAct eine Abfolge von Wegpunkten im Bildraum oder Punkte in der Umgebung, zu denen es einen Pfad festlegen kann. Anschließend beginnt das Modell mit der Ausgabe spezifischer Aktionen, beispielsweise dem Absenken des Arms um einige Zentimeter oder dem Ausstrecken des Arms.
Die Forscher von Ai2 sagten, sie hätten es geschafft, das Modell „mit nur minimaler Feinabstimmung“ an verschiedene Ausführungsformen anzupassen (also entweder einen mechanischen Arm oder einen humanoiden Roboter).
Von Ai2 durchgeführte Benchmarking-Tests zeigten, dass MolmoAct 7B eine Aufgabenerfolgsrate von 72,1 % hatte und damit die Modelle von Google, Microsoft und Nvidia übertraf.
Die Forschung von Ai2 nutzt die einzigartigen Vorteile von LLMs und VLMs, insbesondere angesichts der zunehmenden Innovationsgeschwindigkeit im Bereich der generativen KI. Experten auf diesem Gebiet betrachten die Arbeit von Ai2 und anderen Technologieunternehmen als wichtige Bausteine.
Alan Fern, Professor am Oregon State University College of Engineering , sagte gegenüber VentureBeat, dass die Forschung von Ai2 „einen natürlichen Fortschritt bei der Verbesserung von VLMs für die Robotik und das physikalische Denken darstellt“.
„Auch wenn ich es nicht als revolutionär bezeichnen würde, ist es ein wichtiger Schritt vorwärts in der Entwicklung leistungsfähigerer 3D-Modelle für physikalische Schlussfolgerungen“, sagte Fern. „Ihr Fokus auf ein echtes 3D-Szenenverständnis, anstatt sich auf 2D-Modelle zu verlassen, markiert einen deutlichen Schritt in die richtige Richtung. Sie haben zwar Verbesserungen gegenüber früheren Modellen erzielt, aber diese Benchmarks erfassen die Komplexität der realen Welt noch immer nicht und sind noch relativ kontrolliert und spielerisch.“
Er fügte hinzu, dass es zwar noch Raum für Verbesserungen bei den Benchmarks gebe, er aber „begierig darauf sei, dieses neue Modell anhand einiger unserer physikalischen Denkaufgaben zu testen“.
Daniel Maturana, Mitbegründer des Start-ups Gather AI , lobte die Offenheit der Daten und merkte an: „Das sind großartige Neuigkeiten, denn die Entwicklung und das Training dieser Modelle sind teuer. Daher ist dies eine solide Grundlage, auf der andere akademische Labore und sogar engagierte Hobbyisten aufbauen und die sie optimieren können.“
Für viele Entwickler und Informatiker ist es ein lang gehegter Traum, intelligentere oder zumindest räumlich bewusstere Roboter zu entwickeln.
Es ist jedoch schwierig, Roboter zu bauen, die schnell verarbeiten, was sie „sehen“, und sich reibungslos bewegen und reagieren können. Vor der Einführung von LLMs mussten Wissenschaftler jede einzelne Bewegung programmieren. Dies bedeutete naturgemäß viel Arbeit und weniger Flexibilität bei den möglichen Roboteraktionen. Heute ermöglichen LLM-basierte Methoden Robotern (oder zumindest Roboterarmen), die nächsten möglichen Aktionen anhand der Objekte zu bestimmen, mit denen sie interagieren.
SayCan von Google Research unterstützt Roboter dabei, mithilfe eines LLM über Aufgaben nachzudenken. So kann der Roboter die zum Erreichen eines Ziels erforderliche Bewegungsabfolge bestimmen. OK-Robot von Meta und der New York University nutzt visuelle Sprachmodelle zur Bewegungsplanung und Objektmanipulation.
Hugging Face hat einen Desktop-Roboter für 299 US-Dollar auf den Markt gebracht, um die Entwicklung der Robotik zu demokratisieren. Nvidia, das die physische KI zum nächsten großen Trend erklärt hat, hat mehrere Modelle zur Beschleunigung des Robotertrainings herausgebracht, darunter Cosmos-Transfer1 .
Fern von der OSU sagte, das Interesse an physischer KI steige, auch wenn die Demos noch begrenzt seien. Das Streben nach allgemeiner physischer Intelligenz, die die Notwendigkeit der individuellen Programmierung von Roboteraktionen überflüssig mache, werde jedoch immer einfacher.
„Das Umfeld ist heute anspruchsvoller und bietet weniger leicht zu erreichende Ziele. Andererseits befinden sich große Modelle der physischen Intelligenz noch in der Anfangsphase und sind viel reifer für schnelle Fortschritte, was diesen Bereich besonders spannend macht“, sagte er.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat